今天來分享生成式 AI 最底層的核心,資料,沒有針對目的使用相關的資料就很難訓練出一個能達成目的的模型,很饒舌的一句話。
公開資料集 (Public Datasets)
例如 Google Dataset Search、GitHub 和 Kaggle 上的資料集,這些資料集涵蓋了廣泛的行業和主題,為研究者和開發者提供了豐富的訓練資源。
開源資料集 (Open Source Datasets)
由政府和學術機構提供,通常專注於特定領域的應用,為專業模型訓練提供了具有針對性的資料來源。例如政府資料開放平臺
合成資料 (Synthetic Data):當真實資料不足時,以電腦模擬或演算法產生出且含有註釋資訊的合成資料,用來取代真實環境資料。
資料生成器 (Data Generators)
根據特定參數生成合成資料的工具。這些工具能根據模型的需求產生最適合的資料集。
其他還有公司內部資料、或是購買其他公司提供的資料等等
資料工程是 AI 模型訓練中不可或缺的部分,涵蓋資料的擷取 (Extract)、轉換 (Transform) 和載入 (Load) 等步驟。這些步驟稱為 ETL,而這些步驟執行內容也會使結果有所不同。
資料擷取
擷取階段是 ETL 過程的第一步。這是收集來自不同地方的資料。這些資料來源會非常多樣性,有從資料庫、文件和 外部 API 等。
資料轉換
擷取的資料經過各種操作轉換為適合分析的格式。這些轉換包含清理、標準化、結構化、標籤化等方式。
資料載入
將最後轉換的資料存到指定地方,如資料庫。
有了資料,接著最重要的就是選擇模型,以下列出一些常見的模型比較,如果有誤,還請各位先進告知,謝謝!
模型類型 | 代表模型 | 特點 | 優勢 | 劣勢 | 常見應用 |
---|---|---|---|---|---|
監督式學習 | 線性迴歸、決策樹、隨機森林 | 使用標籤資料進行訓練 | 預測精度高,適合分類和迴歸任務 | 需要大量標記資料,不適合處理未標記資料 | 銷售預測、客戶分類、信用風險評估 |
非監督式學習 | K-means、PCA、層次分群 | 沒有標籤資料,透過資料結構尋找模式 | 可處理未標記資料,揭露潛在結構 | 解釋性差,結果難以驗證 | 客戶分群、推薦系統、異常偵測 |
半監督學習 | 標籤傳播、半監督 SVM | 使用少量標籤資料與大量未標籤資料進行訓練 | 資料需求較少,適合缺乏標記資料的情況 | 標籤資料不足時,效果不如全監督模型 | 文字分類、圖片辨識、醫學影像處理 |
強化學習 | Q-Learning、DQN、PPO | 基於獎勵與懲罰進行學習,學習策略以最大化長期回報 | 高效率處理決策問題,能適應動態環境 | 訓練過程複雜,探索與利用之間的平衡困難 | 自動駕駛、遊戲 AI、機器人控制 |
卷積神經網路 | CNN | 擅長處理圖片資料,利用卷積層提取局部特徵 | 突出的圖片辨識能力,減少參數數量,運算效率高 | 對平移不變性很敏感,對細粒度區別的分類難度較大 | 圖片分類、物件偵測、醫學影像診斷 |
循環神經網路 | RNN、LSTM、GRU | 對序列資料建模,保留長期依賴 | 適合處理時間序列資料,能捕捉長期依賴 | 訓練困難,梯度消失問題,LSTM 訓練時間較長 | 語音辨識、文字生成、機器翻譯 |
生成對抗網路 | GAN | 生成資料的模型,透過生成器和判別器對抗學習 | 能生成高度真實的資料,應用於資料增強 | 訓練不穩定,容易出現模式崩潰 | 圖片生成、影片生成、資料增強 |
Transformer | BERT、GPT、T5 | 基於自注意力機制,並行處理序列,適合處理長距離依賴 | 效率高,適合處理大規模文字資料,優於 RNN 在長依賴問題上 | 模型複雜度高,訓練和推理成本較高 | 自然語言處理(NLP)、機器翻譯、文字生成 |
自動編碼器 | 自動編碼器(Autoencoder) | 透過壓縮和解壓縮進行無監督學習,生成緊湊的資料表示 | 能有效降維、壓縮資料,並去除雜訊 | 重建質量依賴於網路結構,難以處理高維資料 | 圖片去雜訊、特徵提取、異常偵測 |
變分自動編碼器 | VAE | 是自動編碼器的擴展版本,可生成資料 | 能夠生成更平滑的資料分佈,生成多樣化的資料 | 生成的資料質量較 GAN 差,對細節的生成能力有限 | 圖片生成、文字生成、資料補全 |
資料在訓練過程會分成三部分,訓練資料集、驗證資料集和測試資料集。這樣的拆分,有助於評估模型的表現。
而訓練過程大概會有幾個步驟:
因為資料會持續增加,所以上述的過程會隨著資料增長持續地進行。衍伸的問題就是如何做持續性監控。